Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Parsing and tagging of bilingual dictionaries

Identifieur interne : 001780 ( Main/Exploration ); précédent : 001779; suivant : 001781

Parsing and tagging of bilingual dictionaries

Auteurs : HUANFENG MA [États-Unis] ; Burcu Karagol-Ayan [États-Unis] ; David Doermann [États-Unis] ; Doug Oard [États-Unis] ; JIANQIANG WANG [États-Unis]

Source :

RBID : Francis:524-04-11442

Descripteurs français

English descriptors

Abstract

Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" level="a">Parsing and tagging of bilingual dictionaries</title>
<author>
<name sortKey="Huanfeng Ma" sort="Huanfeng Ma" uniqKey="Huanfeng Ma" last="Huanfeng Ma">HUANFENG MA</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Karagol Ayan, Burcu" sort="Karagol Ayan, Burcu" uniqKey="Karagol Ayan B" first="Burcu" last="Karagol-Ayan">Burcu Karagol-Ayan</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
<placeName>
<settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
<affiliation wicri:level="4">
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
<affiliation wicri:level="4">
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">524-04-11442</idno>
<date when="2003">2003</date>
<idno type="stanalyst">FRANCIS 524-04-11442 INIST</idno>
<idno type="RBID">Francis:524-04-11442</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000579</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000768</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000544</idno>
<idno type="wicri:doubleKey">1248-9433:2003:Huanfeng Ma:parsing:and:tagging</idno>
<idno type="wicri:Area/Main/Merge">001858</idno>
<idno type="wicri:Area/Main/Curation">001780</idno>
<idno type="wicri:Area/Main/Exploration">001780</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en" level="a">Parsing and tagging of bilingual dictionaries</title>
<author>
<name sortKey="Huanfeng Ma" sort="Huanfeng Ma" uniqKey="Huanfeng Ma" last="Huanfeng Ma">HUANFENG MA</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Karagol Ayan, Burcu" sort="Karagol Ayan, Burcu" uniqKey="Karagol Ayan B" first="Burcu" last="Karagol-Ayan">Burcu Karagol-Ayan</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
<placeName>
<settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
<affiliation wicri:level="4">
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<affiliation wicri:level="4">
<inist:fA14 i1="01">
<s1>Institute for Advanced Computer Studies (UMIACS), University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
<affiliation wicri:level="4">
<inist:fA14 i1="02">
<s1>College of Information Studies University of Maryland</s1>
<s2>College Park, MD 20742</s2>
<s3>USA</s3>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName>
<region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
<imprint>
<date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Applied linguistics</term>
<term>Automatic generation</term>
<term>Bilingual dictionary</term>
<term>Computational linguistics</term>
<term>Electronic dictionary</term>
<term>Experimental study</term>
<term>Information retrieval</term>
<term>Knowledge acquisition</term>
<term>Linguistic resources</term>
<term>Method</term>
<term>Natural language processing</term>
<term>Segmentation</term>
<term>Tagging</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Linguistique appliquée</term>
<term>Linguistique informatique</term>
<term>Dictionnaire bilingue</term>
<term>Recherche d'information</term>
<term>Dictionnaire électronique</term>
<term>Etiquetage automatique</term>
<term>Segmentation</term>
<term>Génération automatique</term>
<term>Méthode</term>
<term>Acquisition de connaissances</term>
<term>Etude expérimentale</term>
<term>Traitement automatique des langues naturelles</term>
<term>Ressources linguistiques</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêtes en anglais.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>États-Unis</li>
</country>
<region>
<li>Maryland</li>
</region>
<settlement>
<li>College Park (Maryland)</li>
</settlement>
<orgName>
<li>Université du Maryland</li>
</orgName>
</list>
<tree>
<country name="États-Unis">
<region name="Maryland">
<name sortKey="Huanfeng Ma" sort="Huanfeng Ma" uniqKey="Huanfeng Ma" last="Huanfeng Ma">HUANFENG MA</name>
</region>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<name sortKey="Jianqiang Wang" sort="Jianqiang Wang" uniqKey="Jianqiang Wang" last="Jianqiang Wang">JIANQIANG WANG</name>
<name sortKey="Karagol Ayan, Burcu" sort="Karagol Ayan, Burcu" uniqKey="Karagol Ayan B" first="Burcu" last="Karagol-Ayan">Burcu Karagol-Ayan</name>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
<name sortKey="Oard, Doug" sort="Oard, Doug" uniqKey="Oard D" first="Doug" last="Oard">Doug Oard</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001780 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001780 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Francis:524-04-11442
   |texte=   Parsing and tagging of bilingual dictionaries
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024